Máy học là gì? Các công bố khoa học về Máy học

Máy học (Machine learning) là một nhánh của trí tuệ nhân tạo (AI) nghiên cứu về việc thiết kế và phát triển các thuật toán cho các hệ thống có khả năng tự học v...

Máy học (Machine learning) là một nhánh của trí tuệ nhân tạo (AI) nghiên cứu về việc thiết kế và phát triển các thuật toán cho các hệ thống có khả năng tự học và cải thiện từ dữ liệu mà không cần lập trình cụ thể. Máy học giúp máy tính tự động học hỏi và phân tích dữ liệu để tạo ra các dự đoán hoặc đưa ra quyết định mà không cần được lập trình trực tiếp. Các ứng dụng của máy học có thể nằm trong các lĩnh vực như nhận diện giọng nói, nhận dạng hình ảnh, phân loại dữ liệu, dự đoán kết quả và hỗ trợ quyết định.
Máy học có ba dạng chính: học có giám sát (supervised learning), học không giám sát (unsupervised learning), và học bán giám sát (semi-supervised learning).

1. Học có giám sát: Trong học có giám sát, một nhãn đã biết trước được gán cho mỗi mẫu đào tạo để hướng dẫn quá trình học. Mục tiêu là xây dựng mô hình dự đoán một nhãn cho các dữ liệu mới. Ví dụ, trong bài toán phân loại ảnh, mỗi ảnh sẽ có nhãn đích như "mèo" hoặc "chó". Các thuật toán phổ biến trong học có giám sát bao gồm hồi quy tuyến tính, máy vector hỗ trợ (SVM), và mạng neural.

2. Học không giám sát: Trong học không giám sát, không có nhãn được cung cấp cho dữ liệu đầu vào. Mục tiêu của học không giám sát là tìm ra cấu trúc, mô hình hoặc nhóm dữ liệu. Ví dụ, trong phân cụm dữ liệu, thuật toán cố gắng nhóm các mẫu dữ liệu vào các cụm dựa trên đặc điểm chung của chúng. Các thuật toán phổ biến trong học không giám sát bao gồm K-means, Gaussian Mixture Models (GMM), và thuật toán Apriori.

3. Học bán giám sát: Là một sự kết hợp giữa học có giám sát và học không giám sát. Một phần dữ liệu có nhãn và một phần không có nhãn được sử dụng để huấn luyện mô hình. Mục tiêu là phát triển một mô hình có khả năng dự đoán nhãn cho các dữ liệu mới mà không cần nhãn đích cho tất cả các mẫu. Điều này hữu ích trong những tình huống khi việc gán nhãn dữ liệu tốn kém hoặc mất nhiều công sức.
Dưới đây là một số khái niệm chi tiết hơn liên quan đến máy học:

1. Tập dữ liệu (Dataset): Tập dữ liệu là tập hợp các mẫu dữ liệu mà mô hình máy học được huấn luyện hoặc kiểm tra. Mỗi mẫu dữ liệu trong tập dữ liệu có thể bao gồm nhiều đặc trưng (features) và một nhãn (label) đích (trong trường hợp học có giám sát).

2. Huấn luyện (Training): Quá trình huấn luyện là quá trình truyền thông tin từ tập dữ liệu huấn luyện vào mô hình máy học. Mô hình sẽ sử dụng các thuật toán và phương pháp để học từ dữ liệu và thích nghi với nó. Mục tiêu của quá trình huấn luyện là tìm ra các thông số và mô hình tối ưu nhất để dự đoán đúng các dữ liệu mới.

3. Mô hình (Model): Mô hình trong máy học là một hàm toán học hoặc một tập hợp các quy tắc mà máy tính sử dụng để dự đoán hoặc phân loại dữ liệu mới. Mô hình có thể đại diện cho một loại học tập cụ thể như hồi quy tuyến tính, cây quyết định, hoặc mạng neural, và cần được huấn luyện để phù hợp với mục tiêu xác định.

4. Đánh giá (Evaluation): Đánh giá là quá trình đo lường hiệu suất của mô hình trên tập dữ liệu kiểm tra hoặc tập dữ liệu không được sử dụng trong quá trình huấn luyện. Đánh giá thường sử dụng các thước đo như độ chính xác (accuracy), độ mất mát (loss), độ phân loại đúng (precision), độ phủ (recall), và F1 score để đánh giá mức độ hiệu quả của mô hình.

5. Học trực tuyến (Online learning): Học trực tuyến là một hình thức của máy học nơ-ron mà mô hình được huấn luyện liên tục trên dữ liệu khi dữ liệu mới được đưa vào. Điều này cho phép mô hình cập nhật và thích nghi với thông tin mới mà không cần phải huấn luyện lại từ đầu.

6. Đặc trưng (Features): Đặc trưng là các thuộc tính hoặc đặc điểm quan trọng của dữ liệu mà mô hình sử dụng để dự đoán hay phân loại. Việc chọn và rút trích đặc trưng quan trọng từ dữ liệu đầu vào có thể ảnh hưởng đến hiệu suất của mô hình.

7. Gán nhãn (Labeling): Gán nhãn là quá trình gắn nhãn hoặc phân loại các mẫu dữ liệu với nhãn đích hoặc các nhóm cụ thể. Gán nhãn dữ liệu là một công việc tốn kém và phải được thực hiện bởi con người, vì vậy sự tự động hóa gán nhãn là một lĩnh vực quan trọng trong máy học.

Thông qua việc áp dụng và phân tích dữ liệu, máy học hỗ trợ trong việc giải quyết các bài toán phức tạp và đưa ra dự đoán chính xác và đáng tin cậy.

Các bài báo, nghiên cứu, công bố khoa học về chủ đề máy học:

Dự đoán cấu trúc protein với độ chính xác cao bằng AlphaFold Dịch bởi AI
Nature - Tập 596 Số 7873 - Trang 583-589 - 2021
Tóm tắtProtein là yếu tố thiết yếu của sự sống, và việc hiểu cấu trúc của chúng có thể tạo điều kiện thuận lợi cho việc hiểu cơ chế hoạt động của chúng. Thông qua một nỗ lực thử nghiệm khổng lồ1–4, cấu trúc của khoảng 100.000 protein độc nhất đã được xác định5, nhưng điều này chỉ đại diện cho một phần nhỏ trong hàng tỷ chuỗ...... hiện toàn bộ
#dự đoán cấu trúc protein #AlphaFold #học máy #mô hình mạng neuron #sắp xếp nhiều chuỗi #bộ đồ chuẩn hóa #chính xác nguyên tử #tin học cấu trúc #vấn đề gấp nếp protein #CASP14
Học máy: Xu hướng, góc nhìn, và triển vọng Dịch bởi AI
American Association for the Advancement of Science (AAAS) - Tập 349 Số 6245 - Trang 255-260 - 2015
Học máy (Machine learning) nghiên cứu vấn đề làm thế nào để xây dựng các hệ thống máy tính tự động cải thiện qua kinh nghiệm. Đây là một trong những lĩnh vực kỹ thuật phát triển nhanh chóng hiện nay, nằm tại giao điểm của khoa học máy tính và thống kê, và là cốt lõi của trí tuệ nhân tạo và khoa học dữ liệu. Tiến bộ gần đây trong học máy được thúc đẩy bởi sự phát triển của các thuật toán và...... hiện toàn bộ
#Học máy #trí tuệ nhân tạo #khoa học dữ liệu #thuật toán #dữ liệu trực tuyến #tính toán chi phí thấp #ra quyết định dựa trên bằng chứng #chăm sóc sức khỏe #sản xuất #giáo dục #mô hình tài chính #cảnh sát #tiếp thị.
Nghiên cứu về hành vi của một số phương pháp cân bằng dữ liệu huấn luyện máy học Dịch bởi AI
Association for Computing Machinery (ACM) - Tập 6 Số 1 - Trang 20-29 - 2004
Có nhiều khía cạnh có thể ảnh hưởng đến hiệu suất đạt được bởi các hệ thống học hiện tại. Đã có báo cáo rằng một trong những khía cạnh này liên quan đến sự mất cân bằng lớp, trong đó các ví dụ trong dữ liệu huấn luyện thuộc về một lớp nào đó vượt trội số lượng so với các ví dụ thuộc lớp khác. Trong tình huống này, xảy ra trong dữ liệu thế giới thực mô tả một sự kiện hiếm nhưng quan trọng, ...... hiện toàn bộ
Học Máy Trong Y Học Dịch bởi AI
Ovid Technologies (Wolters Kluwer Health) - Tập 132 Số 20 - Trang 1920-1930 - 2015
Nhờ vào những tiến bộ trong công suất xử lý, bộ nhớ, lưu trữ và kho dữ liệu chưa từng có, máy tính đang được yêu cầu giải quyết những nhiệm vụ học tập ngày càng phức tạp, thường đạt được thành công bất ngờ. Máy tính giờ đây đã thành thạo một biến thể phổ biến của trò chơi poker, học các luật vật lý từ dữ liệu thực nghiệm, và trở thành chuyên gia trong các trò chơi điện tử - những nhiệm vụ ...... hiện toàn bộ
#học máy #sức khỏe #phân tích dữ liệu #thuật toán #chăm sóc lâm sàng
Hệ thống máy bay không người lái trong cảm biến từ xa và nghiên cứu khoa học: Phân loại và những điều cần cân nhắc khi sử dụng Dịch bởi AI
Remote Sensing - Tập 4 Số 6 - Trang 1671-1692
Các hệ thống máy bay không người lái (UAS) đã phát triển nhanh chóng trong thập kỷ qua, chủ yếu nhờ vào các ứng dụng quân sự, và đã bắt đầu có chỗ đứng trong số các người dùng dân sự cho mục đích trinh sát cảm biến trái đất và thu thập dữ liệu khoa học. Trong số các UAS, những đặc điểm hứa hẹn bao gồm thời gian bay dài, độ an toàn trong nhiệm vụ được cải thiện, khả năng lặp lại chuyến bay ...... hiện toàn bộ
#Hệ thống máy bay không người lái #cảm biến từ xa #nghiên cứu khoa học #quy định UAS #công nghệ khoa học.
Các cuộc tấn công đối kháng vào máy học y tế Dịch bởi AI
American Association for the Advancement of Science (AAAS) - Tập 363 Số 6433 - Trang 1287-1289 - 2019
Những lỗ hổng mới nổi đòi hỏi các cuộc thảo luận mới
#tấn công đối kháng #máy học y tế #lỗ hổng #bảo mật #trí tuệ nhân tạo
Kỹ Thuật Xử Lý Ô Nhiễm Kim Loại Nặng Từ Đất: Tích Tụ Tự Nhiên So Với Chiết Xuất Cải Tiến Hóa Học Dịch bởi AI
Journal of Environmental Quality - Tập 30 Số 6 - Trang 1919-1926 - 2001
TÓM TẮTMột thí nghiệm trong chậu được thực hiện để so sánh hai chiến lược xử lý ô nhiễm bằng thực vật: tích tụ tự nhiên sử dụng thực vật siêu tích tụ Zn và Cd là Thlaspi caerulescens J. Presl & C. Presl so với chiết xuất cải tiến hóa học sử dụng ngô (Zea mays L.) được xử lý bằng axit ethylenediaminetetraacet...... hiện toàn bộ
#Xử lý ô nhiễm #tích tụ tự nhiên #chiết xuất hóa học #kim loại nặng #<i>Thlaspi caerulescens</i> #<i>Zea mays</i> #EDTA #ô nhiễm nước ngầm #sự bền vững môi trường
Ảnh hưởng của phân chia dữ liệu đến hiệu suất của các mô hình học máy trong dự đoán độ bền cắt của đất Dịch bởi AI
Mathematical Problems in Engineering - Tập 2021 - Trang 1-15 - 2021
Mục tiêu chính của nghiên cứu này là đánh giá và so sánh hiệu suất của các thuật toán học máy (ML) khác nhau, cụ thể là Mạng Nơron Nhân Tạo (ANN), Máy Học Tăng Cường (ELM) và thuật toán Cây Tăng Cường (Boosted), khi xem xét ảnh hưởng của các tỷ lệ đào tạo đối với kiểm tra trong việc dự đoán độ bền cắt của đất, một trong những tính chất kỹ thuật địa chất quan trọng nhất trong thiết kế và xâ...... hiện toàn bộ
#Học máy #độ bền cắt của đất #Mạng Nơron Nhân Tạo #Máy Học Tăng Cường #thuật toán Cây Tăng Cường #mô phỏng Monte Carlo #địa chất công trình #phân chia dữ liệu #chỉ số thống kê #kỹ thuật dân dụng
Học máy khoa học thông qua mạng nơ-ron có thông tin vật lý: Chúng ta đang ở đâu và điều gì đang chờ đón? Dịch bởi AI
Springer Science and Business Media LLC - Tập 92 Số 3 - 2022
Tóm tắtCác Mạng Nơ-ron Có Thông Tin Vật Lý (PINN) là các mạng nơ-ron (NN) mà trong đó nội dung các phương trình mô hình, như Phương Trình Vi Phân Bộ (PDE), được mã hóa như một thành phần của chính mạng nơ-ron. Hiện nay, PINNs được sử dụng để giải các phương trình PDE, phương trình phân thức, phương trình tích phân-vi phân, và các phương trình PDE ngẫu nhiên. Phương...... hiện toàn bộ
Google Earth Engine, Dữ liệu vệ tinh truy cập mở, và Máy học hỗ trợ lập bản đồ xác suất đầm lầy trên diện rộng Dịch bởi AI
Remote Sensing - Tập 9 Số 12 - Trang 1315
Các tiến bộ hiện đại trong điện toán đám mây và các thuật toán máy học đang thay đổi cách sử dụng dữ liệu quan sát Trái Đất (EO) để giám sát môi trường, đặc biệt là trong thời kỳ dữ liệu vệ tinh truy cập mở và miễn phí đang trở nên phổ biến. Việc phân định đầm lầy là một ứng dụng đặc biệt có giá trị của xu hướng nghiên cứu nổi lên này, vì đầm lầy là một thành phần quan trọng về sinh thái nhưng lại...... hiện toàn bộ
#Điện toán đám mây #Máy học #Dữ liệu quan sát Trái Đất #Phân định đầm lầy #Google Earth Engine #Hồi quy tăng cường #Alberta #Vệ tinh truy cập mở #Mô hình hóa đầm lầy #Biến địa hình #Dữ liệu quang học #Dữ liệu radar
Tổng số: 670   
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 10